FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness(Flash Attention)

Transformer

FlashAttention 是一IO-aware的exact Attention 实现：它把 QKᵀ 和 softmax 的计算按块（tiling）搬进片上 SRAM/共享内存，用在线 softmax（维护 running max 与 sum 的 log-sum-exp 归一化）在不保存完整注意力矩阵的情况下完成计算，并且通过Recomputing的技术，从而显著减少 HBM 读写、降低显存占用并加速。

1 Preliminary

在开始之前，我们需要先了解一下以下几个概念，以便我们更好的理解Flash Attention

1.1 Online Softmax

Online Softmax（也叫 streaming softmax / one-pass softmax statistics）指的是：你不需要先把整行 logits \(s_1,\dots,s_D\) 全部存下来再做 softmax，而是一边读入（或一边计算）logits，一边更新必要的统计量，最后得到 softmax 的归一化因子；在需要输出概率时再用这些统计量把每个 logit 变成概率。

我们知道，对于一行向量 \(s \in \mathbb{R}^{D}\), 对于数值稳定的Softmax，我们要先减去它的 max value，这就导致了，对于计算softmax值，我们需要遍历3次这个数组。而Online Softmax则在保持原来的遍历两步的基础上，同时保持Max Softmax的特性。

要实现这个概念的核心做法就：在遍历过程中，维护两个变量： - m：当前遍历过的logits的最大值 - l：当前遍历过的logits的归一化因子（即 \(\sum_{j=1}^{i} \exp(s_j - m)\)）

具体的更新公式如下：

\[ \begin{split} m_{new} & = \max(m, s_i) \\ l & = l \cdot \exp(m - m_{new}) + \exp(s_i - m_{new}) \\ m & = m_{new} \end{split} \]

下面是Python的实现代码：

def online_softmax(x):
    m, l = float("-inf"), 0.0

    for i in range(len(x)):
        m_new = max(m, x[i])
        l = l * math.exp(m - m_new) + math.exp(x[i] - m_new)
        m = m_new

    softmax_values = [0.0] * len(x)
    for i in range(len(x)):
        softmax_values[i] = math.exp(x[i] - m) / l
    return softmax_values

至于为什么这个方法是正确的，我们可以通过数学归纳法来证明： - Base Case: 当只遍历了第一个元素 \(s_1\) 时，显然 \(m = s_1\)，\(l = \exp(s_1 - s_1) = 1\)，此时 softmax 计算正确。 - Inductive Step: 假设在遍历到第 \(i-1\) 个元素时，\(m\) 和 \(l\) 已经正确地反映了前 \(i-1\) 个元素的最大值和归一化因子。现在考虑第 \(i\) 个元素 \(s_i\)： - 如果 \(s_i > m\)，则新的最大值 \(m_{new} = s_i\)，归一化因子更新为： \[ l_{new} = l \cdot \exp(m - s_i) + \exp(s_i - s_i) = l \cdot \exp(m - s_i) + 1 \] - 如果 \(s_i \leq m\)，则最大值保持不变 \(m_{new} = m\)，归一化因子更新为： \[ l_{new} = l \cdot \exp(m - m) + \exp(s_i - m) = l + \exp(s_i - m) \] 我们知道 \(\ell\) 到遇到第 \(i\) 个元素时，在加上第 \(i\) 个元素的贡献之前，要根据当前的最大值进行调整，重新缩放之前的和，以确保数值稳定性。

在这两种情况下，更新后的 \(m_{new}\) 和 \(l_{new}\) 仍然正确地反映了前 \(i\) 个元素的最大值和归一化因子。因此，通过数学归纳法，我们证明了该在线算法在遍历完整个数组后，能够正确计算出 softmax 的归一化因子。

1.2 Recomputing

Recomputing 是一种以计算换内存的技术，它的核心思想是：在前向传播时，不保存某些中间结果，而是在反向传播时重新计算这些结果，从而节省内存空间。

我们知道，在反向传播时，需要用到前向传播中的一些中间结果来计算梯度。如果我们在前向传播时保存了所有的中间结果，那么会占用大量的内存空间。通过 Recomputing，我们可以选择性地不保存某些中间结果，而是在反向传播时重新计算它们。举个例子：假如我们有一个MLP层\(y=W_2\cdot \sigma(W_1 \cdot x)\)，常规的做法是，在前向传播时，保存 \(h=W_1 \cdot x\) 和 \(a=\sigma(W_1 \cdot x)\) 的结果，以便在反向传播时计算梯度：\(\frac{\partial L}{\partial W_2} = d y \, a^\top\) 和 \(\frac{\partial L}{\partial W_1} = (W_2^\top d y) \odot \sigma'(a) \, x^\top\)。但是，如果我们使用 Recomputing，我们可以选择不保存 \(a = W_1 \cdot x\) 和 \(\sigma(a)\)，而是在反向传播时重新计算它们。这样，我们就节省了内存空间，但需要额外的计算时间来重新计算这些中间结果。

这种技术的好处就是，减少了内存的使用，同时降低了读写内存的带宽需求，从而提升了整体的计算效率。

通过PyTorch 的 torch.autograd.Function，我们可以很方便地实现 Recomputing。下面是一个简单的例子：

1.3 GPU’s Memory Model

在理解 Flash Attention 之前，我们需要先了解一下 GPU 的内存模型。在这里，主要介绍一下 GPU 的几种主要内存类型：

High Bandwidth Memory (HBM): 这是 GPU 上的主要内存类型，具有高带宽和较低的延迟。HBM 通常用于存储大规模的数据，如模型参数和输入数据。
SRAM: 这是 GPU 上的片上内存，具有非常高的带宽和低延迟。SRAM 通常用于存储临时数据，如中间计算结果。(SRAM 还可以细分成 L1 Cache 和 L2 Cache， Register， Shared Memory 等在这里我们统称为 SRAM)

因此我们希望，尽可能多的计算在 SRAM 上完成，减少对 HBM 的读写，从而提升整体的计算效率。

1.4 Tiling

1.5 Matrix Calculus Cheatsheet

在这里介绍一些常用的矩阵微积分公式，以便我们在后续的推导中使用：

\(O=PV, \text{where } O \in \mathbb{R}^{m \times n}, P \in \mathbb{R}^{m \times k}, V \in \mathbb{R}^{k \times n}\)

\[ \frac{\partial L}{\partial P} = \frac{\partial L}{\partial O} V^\top, \quad \frac{\partial L}{\partial V} = P^\top \frac{\partial L}{\partial O} \]

\(P = \text{softmax}(S), \text{where } P \in \mathbb{R}^{m \times n}, S \in \mathbb{R}^{m \times n}\)

\[ \frac{\partial L}{\partial S} = P \odot \left( \frac{\partial L}{\partial P} - \text{row\_sum}\left(P \odot \frac{\partial L}{\partial P}\right) \right) \]

其中：\(\odot\) 表示逐元素乘法，\(\text{row\_sum}(\cdot)\) 表示对每一行求和并广播。

2 Flash Attention

2.1 Experiment

3 Summary

4 Key Concepts

5 Q & A

6 Related resource & Further Reading

可以说，Flash Attention是GPU技巧的集合。接下来，我们来一步一步看一下Flash Attention是如何利用这些技术的。

6.1 Tiling Q，K， V

Flash Attention 首先将 Q，K，V 按块（tiling）加载到片上内存（SRAM/Shared Memory）中进行计算。假设我们有一个注意力矩阵 \(A = \text{softmax}(QK^\top)V\)，其中 \(Q \in \mathbb{R}^{N \times D}\)，\(K \in \mathbb{R}^{M \times D}\)，\(V \in \mathbb{R}^{M \times D}\)。我们可以将 \(Q\) 分成 \(N_b\) 个块，每个块大小为 \(B_n \times D\)，将 \(K\) 和 \(V\) 分成 \(M_b\) 个块，每个块大小为 \(B_m \times D\)。这样，我们可以将注意力矩阵的计算分解为多个小块的计算，从而减少对 HBM 的读写。

不过，这里有一个问题就是softmax的计算：它需要一整行的logits才能计算出归一化因子，而Flash Attention是按块计算的，没法一次性拿到整行logits。那么Flash Attention是如何解决这个问题的呢？答案就是：Online Softmax。

6.2 Online Softmax for Attention

Flash Attention 使用 Online Softmax 来计算注意力矩阵的 softmax 部分。具体来说，Flash Attention 在计算每个块的注意力时，维护两个变量：m 和 l，分别表示当前块的最大值和归一化因子。在计算每个块的注意力时，Flash Attention 会更新 m 和 l，从而实现在线计算 softmax 的归一化因子。

具体来说，假设我们正在计算第 \(i\) 个块的注意力，我们有：

\[ S_{i,j} = Q_i K_j^\top \]

然后，我们使用 Online Softmax 的更新公式来更新 m 和 l：

\[ \begin{split} m_{new} & = \max(m, \max(S_{i,j})) \\ l & = l \cdot \exp(m - m_{new}) + \sum_{k} \exp(S_{i,j,k} - m_{new}) \\ m & = m_{new} \end{split} \]

通过这种方式，Flash Attention 可以在不保存完整注意力矩阵的情况下，计算出正确的 softmax 归一化因子。

6.3 Recomputing for Backward Pass

我们知道，在反向传播时，需要用到前向传播中的一些中间结果来计算梯度。如果我们在前向传播时保存了所有的中间结果，那么会占用大量的内存空间。Flash Attention 通过 Recomputing 技术，选择性地不保存某些中间结果，而是在反向传播时重新计算它们，从而节省内存空间。具体来说，Flash Attention 在前向传播时，不保存完整的注意力矩阵 \(S\) 和 softmax 矩阵 \(P\)，而是在反向传播时重新计算它们。这样，Flash Attention 就节省了大量的内存空间，同时降低了读写内存的带宽需求，从而提升了整体的计算效率。

具体来说，假设我们有一个注意力矩阵 \(A = PV\)，其中 \(P = \text{softmax}(S)\)。在反向传播时，我们需要计算 \(\frac{\partial L}{\partial Q}\)，\(\frac{\partial L}{\partial K}\) 和 \(\frac{\partial L}{\partial V}\)。Flash Attention 通过重新计算 \(S\) 和 \(P\) 来实现这一点：

\[ \begin{split} \frac{\partial L}{\partial V} & = P^\top \frac{\partial L}{\partial A} \\ \frac{\partial L}{\partial P} & = \frac{\partial L}{\partial A} V^\top \\ \frac{\partial L}{\partial S} & = P \odot \left( \frac{\partial L}{\partial P} - \text{row\_sum}\left(P \odot \frac{\partial L}{\partial P}\right) \right) \\ \frac{\partial L}{\partial Q} & = \frac{\partial L}{\partial S} K \\ \frac{\partial L}{\partial K} & = Q^\top \frac{\partial L}{\partial S} \end{split} \]

通过这种方式，Flash Attention 在反向传播时重新计算了必要的中间结果，从而节省了内存空间，同时降低了读写内存的带宽需求。

6.4 Kernel-Fusion

Flash Attention 通过将多个计算步骤融合到一个 GPU kernel 中，减少了内存读写的开销，从而提升了整体的计算效率。具体来说，Flash Attention 将 QKᵀ 的计算、softmax 的计算和与 V 的乘法计算融合到一个 kernel 中，从而减少了中间结果的存储和读取。通过这种方式，Flash Attention 可以在一个 kernel 中完成所有的计算，从而减少了内存读写的开销。